Model Selection

Chinese Visual Question Answering

# Chinese Visual Question Answering

Qwen2.5 VL 7B Instruct GGUF

Qwen2.5-VL-7B-Instruct is a multimodal vision-language model that supports image-text generation tasks.

Image-to-Text English

Aria Sequential Mlp Bnb Nf4

A BitsAndBytes NF4 quantized version based on Aria-sequential_mlp, suitable for image-to-text tasks with approximately 15.5 GB VRAM requirement.

Vit Gpt2 Image Chinese Captioning

This model uses ViT for image encoding and GPT-2 for decoding, supporting Chinese image caption generation.

Transformers Chinese

Featured Recommended AI Models

AIbase

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

© 2025AIbase